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摘要 : 


【 目的 】 现 有 的 本 体 对 齐 方 法 往往 忽视 中 文 概念 的 语序 敏感 和 一 词 多 义 的 语义 特征 。 本 文 提出 一 种 基于 


同义词 词 林 和 序列 比 对 算法 的 大 规模 中 文本 体 映 射 模型 。[ 方法 ] 采 用 基于 改进 的 同义词 词 林 相似 度 算 法 计算 简 


单词 元 的 语义 相似 度 。 并 利用 基于 改进 同义词 词 林 与 序列 比 对 相 融 合 的 算法 度量 未 登录 词 之 间 的 语义 相似 度 。 


【 结果 ] 在 由 DBpedia( 中 文 版 )、 百 
模 3 


度 百 科 和 互动 百科 知识 库 所 构 如 
型 的 准确 率 、 召 回 率 和 综合 评价 指标 平均 分 别 达到 约 97.5%、87.8% 和 92.1%。[ 局 限 】 本 模型 仅 专注 于 对 中 


的 测试 语 料 上 的 关联 映射 实验 结果 表明 , 该 


文本 体 概念 的 元 素 级 相似 度 度量 ,并 未 考虑 本 体 属性 和 实例 对 于 概念 等 价 关系 的 影响 因素 。[ 结论 ] 在 面向 中 文 


网 络 百科 的 大 规模 开放 语义 数据 集 上 的 评测 结果 证 


明 , 该 模型 的 总 体 性 能 明显 优 于 现 有 算法 。 


关键 词 : 中 文 关联 数据 ”同义词 词 林 序列 比 对 ”本体 映 射 ”、 相 似 度 计算 
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1 3 引 


语义 Web 的 愿景 是 建立 “数据 之 网 ”(Web of Data)， 
以 使 机 器 能 够 理解 网 络 上 的 语义 信息 凹 。 本 体 作为 语 
义 Web 的 核心 元 素 , 是 描述 特定 领域 共享 概念 的 形式 
化 .规范化 说 明 趾 , 是 实现 网 络 知识 共享 和 语义 互 操 作 
的 基础 。 目 前 关联 数据 (Linked Open Data, LOD)DI 的 研 
究 工作 主要 集中 在 面向 实例 级 别 (Level of Instances) 上 
展开 1， 同时 ,由 于 不 同 本 体 之 间 存 在 异 构 性 ， 导 致 
本 体 间 的 重用 和 共享 变 得 困难 。 因 此 , 作为 关联 数据 
的 基础 和 前 提 , 面向 模式 级 别 (Schema-LeveD 的 关联 
数据 构建 研究 亦 很 重要 史 9。 

本 体 映 射 (Ontology Mapping) 作 为 模式 级 的 关联 
数据 构建 典型 场景 已 被 广泛 研究 ,其 任务 就 是 要 发 现 
异 构 本 体 或 数据 源 (LOD Datasets) 之 间 的 概念 语义 关 
联 。 而 随 着 语义 网 的 蓬勃 发 展 ， 中文 描 述 的 大 规模 本 
体 和 知识 库 也 越 来 越 多 地 被 构建 和 共享 出 来 。 同 时 ， 
由 于 文化 和 背景 的 原因 ,目前 大 规模 中 文 关 联 数据 网 
络 的 构建 研究 尚 处 于 初级 阶段 ， 更 缺乏 成 熟 的 面向 模 


了 中 


通讯 作者 : 了 
*# 本 文系 首都 经 济 贸 易 大 学 科研 项 目 “ 基 了 


F 数 据 场 和 序列 比 对 


的 


式 级 别 的 大 规模 中 文 关联 数据 模型 。 因 此 , 为 了 解决 
在 关联 数据 网 络 中 的 中 文本 体 语义 互 操作 和 共享 问 
题 ， 本文 面向 本 体 模 式 层面 , 提出 一 种 新 的 大 规模 中 
文本 体 映 射 模 型 。 


2 相关 工作 


国内 外 研究 人 员 已 提出 多 种 映射 方法 和 典型 系 
统 。Melnik 等 中 提出 一 种 结构 级 本 体 映射 算法 : 
Similarity Flooding, 利用 本 体 的 概念 体系 构造 相似 度 
传播 图 ， 并 对 概念 之 间 的 相似 度 进行 传播 和 修正 。 
Cohen 等 外 分 析 基 于 编辑 距离 和 基于 Token 的 几 种 典 
型 元 素 级 相似 度 计算 算法 ,并 对 几 种 算法 的 性 能 进行 
评测 。 Giunchiglia 等 加 提出 基于 语言 学 方法 ,并 引入 共 
享 知识 词典 (如 : WordNett" ,利用 语言 关系 进行 语义 
关系 发 现 。Isaac 等 帆 提 出 一 种 实例 级 本 体 映 射 算 法 ， 
根据 本 体 概念 的 公共 实例 数量 来 度量 概念 的 相似 度 
Nikolov 等 中 基于 工作 流 技术 提出 链接 数据 的 机 
KnoFuss, 利用 本 体 库 中 概念 之 间 的 层次 关系 选择 
合适 的 匹配 方法 以 及 匹配 参数 。Zhong 等 器 提 
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研究 文 


RiMOM 系统 ,该 系统 基于 本 体 实 例 、 概 念 名 称 以 及 本 
体 结构 等 特征 的 多 策略 映射 方式 , 并 通过 引入 普 适 的 
场 论 思想 , 使 其 适用 于 大 规模 本 体 的 映射 任务 。Jain 
等 发 布 了 BLOOMS 系统 ,该 系统 基于 Bootstrapping 
方法 并 采用 Wikipedia 顶层 分 类 树 作 为 相似 度 计算 知 
识 库 从 而 进行 LOD 环境 中 的 面向 本 体 模 式 的 链接 构 
建 。 但 是 上 述 系 统 均 愉 能 针对 和 处理 英文 描述 的 语义 
数据 集 的 本 体 模式 映射 任务 。 

近年 来 ， 越 来 越 多 的 学 者 开始 关注 中 文本 体 及 其 
关联 数据 的 构建 工作 。 特 别 是 在 面向 本 体 模式 级 别 
( 即 : 本 体 映 射 ) 的 中 文 关 联 数据 网 络 建设 层面 上 , 李 
佳 等 (1 提出 一 种 基于 知 网 (HowNet)t 1 的 元 素 层 概 念 
相似 度 计算 的 方法 并 实现 中 文本 体 映 射 系统 , 但 该 系 
统 忽 视 了 中 文 普遍 存在 的 “语序 敏感 "和 “一 词 多 义 ” 现 
象 04, 因此 在 面 对 大 规模 本 体 映射 任务 时 ， 其 在 关联 
数据 环境 中 的 适用 性 有 待 验 证 ,基于 《同义词 词 林 泊 扩 
展 版 )"" 田 久 乐 等 中 提 出 一 种 中 文 词语 语义 相似 度 
计算 算法 , 但 并 未 涉及 对 于 中 文 未 登录 词 的 相似 度 计 
算 处 理 方 式 , 其 成 果 也 未 在 实际 的 大 规模 关联 数据 网 
环境 下 应 用 。 

除 此 之 外 , 也 有 很 多 面向 实例 级 别 的 典型 关联 数 
据 系统 .Silk02 是 一 个 在 不 同 数据 集 之 间 实 现 链接 的 
框架 ,其 设计 了 一 种 声明 式 语 言 , 用户 可 以 对 两 个 数 
据 集 之 间 的 链接 进行 配置 , 包括 链接 的 类 型 和 链接 的 
条 件 , 并 且 可 以 实现 远程 数据 集 与 本 地 数据 集 的 链 
接 。Hassanzadeh 等 上 提供 了 一 个 通用 和 可 扩展 的 框架 
LinQL， 其 中 集成 了 很 多 已 有 的 发 现 关联 的 方法 。 该 杠 
架 的 目的 是 帮助 用 户 选 择 最 适合 的 数据 集 的 关联 方 
法 。 同 时 , 还 支持 基于 关系 数据 库 进 行 发 布 的 RDF 数 
据 , 例如 使 用 D2RQ 或 Virtuoso 发 布 的 关系 数据 。 
Wang 等 中 提出 基于 中 文 百科 的 分 类 体系 DMOZs, 抽 
取 概 念 之 间 的 层次 关系 并 获取 含有 Infobox 的 词 条 
Web 页 面 中 的 概念 属性 及 百科 词 条 实例 , 最 终 建 立 起 
基于 百度 百科 和 互动 百科 的 两 大 中 文大 规模 本 体 库 ， 
并 根据 简单 的 关键 字 匹 配 策略 , 与 DBpedia 建立 起 实 
例 间 的 共 指 关系 。 Niu 等 将 百度 百科 看、 互动 百科 中 
以 及 中 文 维基 百科 3 进行 语义 集成 ,并 开发 出 基于 
中 文 描述 的 实例 级 关联 数据 应 用 系统 Zhishi.me。 为 了 
实现 在 关联 数据 网 络 环境 中 的 知识 共享 、 重 用 和 语义 
互 操作 , 跨 语言 的 本 体 链 接 和 映射 就 成 为 必须 要 解决 


一 


数据 分 析 与 知识 发 现 


的 问题 。 Wang 等 提出 采用 概念 标注 方法 , 借助 少量 
的 跨 语言 链接 和 内 部 链接 种 子 来 丰富 内 部 链接 ,并 在 
此 基础 上 采用 回归 学 习 模 型 来 预测 中 英文 维基 百科 之 
间 潜 在 的 跨 语 言 链 接 。 但 是 上 述 系统 均 具 涉及 实例 之 
间 的 关联 关系 构建 ,而 缺乏 对 于 本 体 模式 层面 上 的 链 
接 获 取 和 发 现 。 

综 上 所 述 , 目前 发 布 在 Web 上 的 中 文大 规模 本 体 
仍然 较 少 ,， 且 存在 较 大 的 异 构 性 , 而 现 有 的 中 文本 体 
映射 系统 在 面 对 大 规模 本 体 映 射 任务 时 ,效率 较 低 且 
可 用 性 不 高 。 同 时 ,， 仍 缺乏 针对 中 文 语言 描述 且 适 应 
LOD 环境 的 大 规模 本 体 映 射 系 统 。 因 此 , 本 文 基 开 ( 同 
义 词 词 林 》( 扩 展 版 ) 和 序列 比 对 思想 , 提出 一 种 新 的 中 
文本 体 映 射 模 型 。 该 模型 可 以 有 效 解 决 中 文 概念 相似 
度 计 算 时 出 现 的 语序 敏感 和 一 词 多 义 问题 。 在 基于 中 
文 网 络 百科 构建 的 大 规模 本 体 测 试 集 上 的 实验 结果 表 
明 , 该 系统 可 以 获得 高 于 前 人 工作 的 总 体 性 能 。 


3 问题 定义 


《同义词 词 林 》(TongYiCiCiLin, TYCCL)( 扩 展 版 ) 
中 已 收录 的 词汇 称 为 简单 词 元 。 在 中 文本 体 映射 系统 
中 , 简单 词 元 与 未 登录 词 都 对 应 于 本 体 概念 。 本 文 将 
简单 词 元 称 为 原子 概念 (Atom Concept，AC), 将 未 登 
录 词 统称 为 组 合 概念 (Component Concept，CC), 并 约 
定 组 合 概 念 由 若干 个 原子 概念 的 线性 排列 组 合 而 成 。 
下 面 给 出 问题 的 定义 : 

定义 1: 本 体 映 射 : 两 个 待 映射 本 体 0,、O,, 对 于 
O, 中 的 概念 C, 在 O, 中 找到 与 其 语义 相同 或 接近 的 概 
念 C。 有 了 映射 函数 map:O, 一 Or 

对 于 VCeO,，V CieO, 蔡 sim(C,, C0)>>t; 则 有 
map(CyJ=C, 

sim(Cs, Cy 为 C, 和 C, 的 相似 度 , + 是 冰 值 ， 当 C, 与 
C' 的 语义 相似 度 大 于 上 时 , 则 将 <C,，C> 作 为 等 价 概念 
映射 对 。 

定义 2: 本 文 认 为 《同义词 词 林 》( 扩 展 版 ) 中 收录 
的 全 部 词汇 以 及 它们 之 间 的 语义 关系 可 构成 一 个 语义 
知识 库 (Semantic Knowledge Base，SKB)， 记 做 : 
SKBryccL。 显 然 集 合 SKBryrccz 由 原子 概念 组 成 ， 即 有 
SKBryccr={4C1, 4C2…, 4CN}。N 为 知识 库 中 所 收录 的 
词 元 总 数 。 

定义 3: 组 合 概念 CC; 由 一 系列 原子 概念 的 有 序 


排列 构成 。 对 于 V4CeSKBrceer, 引入 二 维 下 标 i 和 
万 则 有 有 序 序列 CC=[4C， 4Ci, …， 4Cj, 其 中 疡 > 1 


且 CCig SKBzycci, j 为 原子 概念 4C; 在 有 序 序列 CC; 


中 的 排列 位 置 。 特 别 地 ,对 于 所 有 的 原子 概念 4C， 可 
以 有 4CF=LCI。 

定义 4: 对 于 本 体 0, 和 O, 中 的 概念 C, 和 C。 有 
C=CC=[ 4C ACs, *…, 4Cw]，CFCCFLC AC», *…, 
ACwn]。m 和 分 别 为 概念 C; 和 C, 所 对 应 的 有 序 序列 
CC, 和 CC 的 长 度 , 则 有 m,n 宇 1。 


C,H Ce SKByycer 


本 体 预 处 理 


C 或 C,¢ SKBrycc 


组 合 概念 
分 词 处 理 


构建 打分 矩 阵 


4 基于 同义词 词 林 和 序列 比 对 的 中 文 关联 
数据 模型 


该 模型 主要 由 以 下 功能 模块 组 成 : 本 体 预 处 理 、 
组 合 概念 分 词 处 理 、 改 进 的 同义词 词 林 相 似 度 计算 、 
构建 打分 矩阵 以 及 组 合 概念 相似 度 计 算 ( 包 含 :改进 的 
同义词 词 林 相似 度 计 算 和 序列 比 对 处 理 )。 系统 总 体 框 
架 如 图 1 所 示 。 基于 上 述 形式 化 定义 , 将 对 中 文本 体 概 
念 映射 过 程 中 的 各 种 情况 进行 分 类 讨论 。 


改进 的 同义词 词 
林 相 似 度 计算 


获取 映射 结果 [一 〇 


改进 的 同义词 记 
林 相 似 度 计算 多 策略 融合 的 相 


似 度 计算 


图 1 基于 同义词 词 林 和 序列 比 对 的 中 文本 体 映射 模型 


对 于 待 映射 的 源 本 体 O,. 和 目标 本 体 0, 中 的 任意 
两 个 概念 C, 和 C。 在 进行 概念 的 语义 相似 度 计算 时 ， 
会 出 现 如 下 三 种 情况 : 

(1) C; 和 C, 均 为 原子 概念 ， 即 : Cse SKBryccz 且 
Ce SKBryccr; 

(2) Cs 和 CGC 的 其 中 之 一 为 原子 概念 , 而 男 一 个 为 
组 合 概 念 ， 即 : Cg SKBzyyccr 或 Cg SKBryccr; 

(3) C; 和 CG, 均 为 组 合 概 念 ， 即 : C,g SKBryccz 且 
Cig SKBryccro 

对 于 情况 (1)， 本 文 直接 采用 “改进 的 同义词 词 林 相 
似 度 计算 "模块 实现 两 个 原子 概念 的 语义 相似 度 计算 。 

对 于 情况 C) 和 情况 (3) 的 组 合 概念 相似 度 计算 的 
处 理 对 策 , 本 文 将 采用 基于 “序列 比 对 处 理 ”与 “改进 
的 同义词 词 林 相 似 度 计算 ”的 多 策略 融合 方式 实现 ， 
即 :“ 组 合 概念 相似 度 计 算 模块 的 输入 为 两 个 待 映射 
的 词 串 序列 CC, 和 CC,, 以 及 其 所 对 应 的 打分 矩阵 , 该 
打分 矩阵 则 由 “组 合 概念 分 词 处 理 ”模块 和 “构建 打分 
和 矩阵 ”模块 协作 生成 。 

4.1 基于 改进 的 同义词 词 林 相 似 度 计算 
同义词 词 林 吕 是 一 个 中 文 同义词 典 ， 它 将 每 个 词 


汇 进行 编码 并 以 层次 关系 组 织 在 一 个 倒挂 的 树 形 结构 
中 , 树 中 的 每 个 节点 代表 一 个 概念 ， 而 中 文 的 概念 共 
指 关 系 识 别 , 实际 上 可 以 抽象 为 中 文 同义词 的 识别 和 
语义 相似 度 的 计算 问题 , 因此 同义词 词 林 是 最 佳 的 选 
择 。 本 文采 用 哈尔滨 工业 大 学 同义词 词 林 ( 扩 展 版 ) 作 
为 中 文本 体 映 射 关 系 抽取 的 常识 知识 库 。 

在 实验 过 程 中 , 发 现 田 久 乐 等 中 提出 的 传统 算法 
过 分 强调 概念 之 间 的 语义 相关 性 ， 即 : 同义词 词 林 中 的 
层级 之 间 的 词汇 父子 类 关系 对 于 本 体 概念 的 等 价 关 系 
获取 会 造成 较 大 干扰 .而 本 体 映 射 任 务 却 是 要 发 现 概念 
之 间 的 等 价 关系 而 非 父子 类 关系 ,因此 本 文通 过 引入 
语义 调节 因子 和 概念 相似 度 权重 系数 来 对 传统 算法 进 
行 改进 , 使 之 适用 于 LOD 环境 中 的 中 文本 体 映射 任务 。 

同义词 词 林 将 词 元 组 织 为 分 层 结构 ， 自 项 向 下 共 
有 5 层 。 每 个 层次 都 有 相应 的 编码 标识 ,5 层 的 编码 从 
左 至 右 依 次 排列 起 来 , 形成 词 元 的 词 林 编 码 。 词 语 与 词 
语 之 间 隐 含 的 语义 相关 度 也 随 着 层次 的 增加 而 提高 。 

以 词 元 “物质 ?为 例 ( 词 林 编码 为 : Ba01A02=) 进 行 
编码 格式 解释 ， 如 表 1 所 示 。 
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表 1 ， 词 林 编 码 示 例 
交友 人 23905017 
子 编码 B a 0 1 A 0 “2 “=( 或 # 或 @)]” 
合 义 ”大 类 ”中 类 ”小 类 词 妊 原子 词 群 同 义 \ 不 等 \ 呀 立 
层次 第 1 层 第 2 层 第 3 层 第 4 层 第 5 层 


根据 同义词 词 林 的 结构 特点 ,首先 对 待 映射 概念 
的 词 林 编码 进行 解析 , 抽取 出 第 1 至 第 5 层 子 编码 ， 然 
后 从 第 1 层 子 编码 开始 比较 。 若 子 编码 不 同 , 则 根据 
所 出 现 的 层次 来 赋予 该 映射 对 相应 的 相似 度 权 重 。 子 
编码 不 同 的 情况 出 现在 越 深 的 层次 , 则 相似 度 权重 越 
高 ; 出 现 子 编码 不 同 的 编码 位 越 小 (层次 越 浅 )， 其 语 
义 相关 性 就 越 差 (相似 度 权 重 越 低 )。 即 : 改进 的 方法 可 以 
同时 兼顾 词 林 中 的 层级 因素 对 相似 度 计 算 结果 的 影响 。 
同时 , 每 层 的 分 支 节点 数 的 多 少 也 对 相似 度 有 影响 。 

本 文 给 出 基于 同义词 词 林 的 相似 度 计算 方法 如 公 
式 (1) 所 示 。 


SIM,(C,,C)=4 “i cos(N, x 0) -| 
(1) 

由 于 本 体 映射 任务 更 关注 概念 之 间 的 语义 相似 
性 ， 因此 需要 通过 引入 语义 调节 因子 入 来 调节 不 同 层 
级 概念 间 语 义 相 关 性 和 语义 相似 性 的 关系 以 及 控制 处 
于 不 同 层次 分 支 的 词 元 之 间 可 能 相似 的 程度 ,显然 
入 e(0,1)。X 值 越 大 ,表示 不 同 层次 之 间 的 词 元 相似 或 
等 价 的 可 能 性 越 大 ， 且 不 同 层次 的 语义 相关 性 对 于 最 
终 概念 相似 度 的 影响 越 大 ,反之 则 越 小 ,特别 地 , 在 面 
对 中 文本 体 映 射 任务 时 ,由 于 更 突出 概念 间 的 语义 相 
似 度 , 因此 入 取 值 不 宜 过 高 。 

本 文 引 入 L={1,2,3,4,5}, 对 于 VV LieL, 工 为 子 编 码 
不 同 所 出 现在 的 层次 数 , |L| 表 示 集 合 工 中 的 元 素 个 数 ， 
在 本 系统 中 恒 等 于 5。 本 文 提 出 的 概念 相似 度 权 重 系 
数 为 x(LW|ZL|)。 Ni 为 词 元 C, 和 CC, 在 第 i 层 分 支 上 的 节 
点 总 数 , D 为 词 元 C, 和 C, 的 编码 距离 。 特 别 地 ， 当 待 
映射 概念 对 的 5 层 编码 均 相 等 是 词 林 编 码 最 后 一 位 为 
“=” 时 ,规定 相似 度 函 数 SIMz 的 返回 值 为 1.0。 显 然 ， 函 
数 SIM7 的 值 域 为 (0,1]。 
4.2 ”基于 序列 比 对 的 组 合 概念 相似 度 计 算 

对 于 中 文 组 合 概念 的 相似 度 计 算 , 许多 学 者 提出 
了 解决 方案 。 例 如 : 李 佳 等 (设计 并 实现 了 基于 知 网 
(HowNet) 的 元 素 层 概 念 相似 度 计算 方法 并 实现 了 中 文 


N 


1 


i 
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本 体 映 射 系统 。 该 方法 在 处 理 未 登录 词 的 相似 度 计算 
问题 时 , 将 两 个 组 合 概 念 所 对 应 的 原子 概念 序列 进行 
遍历 , 找 出 其 中 相似 度 最 大 的 原子 概念 映射 对 , 通过 
得 到 的 相对 极 大 的 映射 对 求 出 两 个 组 合 概 念 的 相似 度 
值 ， 如 公式 (2) 所 示 。 


max(m,n) 


> max, (B,,) 


Sim(A, B) = es (2) 


其 中 ，B。 表 示 分 别 以 两 个 词汇 拆 分 后 得 到 的 已 知 
词 为 行列 组 成 的 相似 度 矩 阵 中 的 元 素 , max(Bw) 表 示 
和 矩阵 中 数值 排列 为 第 i 位 的 相似 度 。max(m,n) 表 示 取 
行 号 或 列 号 的 较 大 者 。 

但 是 , 由 于 中 文 概念 普遍 存在 “语序 敏感 ”的 特点 ， 
此 上 述 前 人 的 处 理 方式 难免 带 来 语义 相似 度 计算 的 
误差 。 例 如 , 不 同 本 体 中 出 现 的 两 个 待 映射 组 合 概念 : 
“历史 理论 ”和 “思想 史 ” 经 过 分 词 处 理 后 得 到 两 个 由 
原子 概念 构成 的 有 序 排 列 ; [历史 , 理论 ] 和 [思想 ， 史 ]。 
如 果 采 用 前 人 处 理 未 登录 词 的 普遍 方法 ， 则 会 得 到 如 
图 2 所 示 的 原子 概念 映射 结果 。 基 于 《同义词 词 林 X( 扩 
展 版 ) 并 由 公式 (D 计 算 每 对 原子 概念 映射 时 的 语义 相 
似 度 ,最 后 采用 公式 (2) 进 行 综合 计算 得 到 的 概念 元 素 
级 相似 度 的 值 为 1.0, 显然 这 是 完全 不 合理 的 组 合 概 
念 映射 对 和 相似 度 结 有 果 。 原 因 是 该 方法 忽视 了 中 文 自 
然 语 言 中 普遍 存在 的 “语序 敏感 "现象 和 “一 词 多 义 ” 的 
语义 特征 。 


思想 _ 史 
历史 “理论 


图 2 错误 的 匹配 结果 


因此 , 本 文 提出 一 种 改进 的 概念 语义 相似 度 计算 
方法 。 具 体 地 , 在 计算 概念 之 间 的 元 素 级 相似 度 时 , 引 
人 基于 生物 信息 学 的 全 局 双 序 列 比 对 算法 进行 语义 相 
似 度 计算 。 

(1) 序列 比 对 (Sequence Alignmenf) 算 法 概述 

在 生物 信息 学 中 ， 双 序列 比 对 是 指 将 两 条 DNA.、 
RNA 或 蛋白 质 序列 排列 在 一 起 ,并 标明 其 相似 处 。 序 
列 中 可 以 插入 空位 符 ， 对 应 的 相同 或 相似 的 符号 排 在 
同一 列 上 。 通 过 比较 两 个 序列 间 的 相似 片断 和 保守 性 
位 点 ,寻找 其 可 能 存在 的 分 子 进 化 关系 中 9。 

总 体 来 说 ， 比 对 模型 可 以 分 为 两 类 : 一 类 是 全 局 


比 对 (Global Alignment), 主要 考察 两 个 序列 之 间 的 整 
体 相 似 性 ， 对 序列 进行 全 程 扫 描 和 比较 。 另 一 类 是 局 
部 比 对 (Local Alignment), 重点 关注 序列 中 的 某 些 特 
殊 片 断 ， 比 较 序 列 中 片断 之 间 的 相似 性 。 二 者 均 可 通 
过 动态 规划 (Dynamic Programming, DP) 思 想 求解 。 
(2) 构造 动态 规划 打分 和 矩阵 
所 谓 序 列 是 指 由 一 系列 字母 标识 , 根据 一 定 的 排 
列 规则 所 组 成 的 字符 串 。 
个 组合 概 念 分 词 处 理 
本 系统 将 组 合 概念 视 为 词 串 序列 ， 序 列 中 的 各 个 元 素 
即 为 原子 概念 。 将 组 合 概念 进行 分 词 处 理 ， 得 到 其 对 应 的 词 
串 序 列 ， 之 后 采用 中 国 科 学 院 计算 技术 研究 所 研发 的 
ICTCLAS50P9 作 为 分 词 处 理工 具 。 字 母 表 规 定 为 《同义词 
词 林 》( 扩 展 版 ) 语 义 知识 库 : SKBryrccr。 
@ 构 建 打分 短 阵 
首先 将 待 比 对 的 两 个 词 串 序 列 以 打分 矩阵 M(Scoring 
Matrix) 的 形式 表示 ， 两 个 序列 分 别 作为 动态 规划 纸 阵 的 两 
维 。 对 于 待 映 射 本 体 O. 和 O, 中 的 概念 C, 和 C,, 打分 矩阵 人 M 
的 第 工行 对 应 词 串 序列 CC 中 的 原子 概念 4Cw， 第 7 也 列 对 应 
词 囊 序列 CC 中 的 原子 概念 4Cj, 其 中 [<m, jn。 动态 规 
划 撼 阵 M 中 第 i 行 第 j 列 元 素 称 为 Mi。 
根据 动态 规划 思想 , 将 两 个 词 串 序列 以 行 和 列 来 表示 。 
假设 序列 CC, 的 长 度 为 m,， 序列 CC 的 长 度 为 n, 则 可 形成 
一 个 以 序列 CC, 为 行 、 序 列 CC 为 列 的 (m+1)x(n+1) 二 维 短 
阵 。 例 如 : 组 合 概念 “第 二 次 工业 革命 "和 “第 二 次 世界 大 战 战 
犯 "经 过 分 词 处 理 后 ， 可 以 得 到 两 个 待 比 对 词 囊 序列 : CC, = 
[第 二 ,次 ,工业 革命 ], CC,= [第 二 ,次 , 世界 大 战 , 战犯 ]。 
(3) 最 优化 的 递归 求解 算法 
将 本 体 映 射 的 概念 相似 度 计算 抽象 为 两 个 词 串 序 
列 的 比 对 过 程 : 通过 空位 罚 分 函数 , 决策 在 词 串 序列 
中 的 相应 位 置 插入 空位 符 “-”, 使 得 两 个 序列 长 度 相 
同 , 进而 构建 出 待 比 对 序列 的 原子 概念 之 间或 原子 概 
念 与 空位 符 的 对 应 关系 ,序列 比 对 算法 的 本 质 就 是 通过 
评分 策略 , 找 出 两 个 组 合 概念 序列 的 最 佳 全 局 配对 。 
Needleman-Wunsch 算法 于 1970 年 由 Needleman 
和 Wunsch 提出 , 是 一 种 典型 的 用 来 比 对 序列 之 间 全 局 
相似 性 的 动态 规划 算法 , 适用 于 比较 全 局 宏观 上 相似 
程度 较 高 的 两 个 序列 的 。 本 文 主要 基于 该 算法 和 动态 规 
划 思 想 , 对 矩阵 M 中 的 最 优 比 对 路 径 进 行 递 归 求 解 。 
算法 1: ConceptSimilariy(CC,, CC) 
输入 : 组 合 概念 CC, 和 CC 所 对 应 的 打分 矩阵 Mam 
输出 : 包含 最 优 比 对 路 径 的 矩阵 Mo 
QD pe -0.05 
// 定 义 常量 p 为 算法 的 惩罚 因子 ， 且 等 于 -0.05 
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© foreachie— 1,2, ,mtl;je 1,2, ,ntl 
// 动 态 规划 佐 阵 初始 化 
® Mou px(m-itl) 
@® Mivp px(ntl) 
© end for 
© for eachi em, m-1, *…,1 
© for eachj n,n-l, …, 1 
Moo 和 二 max(Ma+vyory + SIMAACs, ACy), MoorD + p, 


Maivym+p) 1/ 递归 计算 给 阵 中 每 个 元 素 的 代价 值 
©@ endfor 
(0 end for 


人 回溯 得 到 包含 序列 比 对 最 优 路 径 的 矩阵 Mo 
全 return M'(»0) 


首先 , 给 出 序列 比 对 算法 的 惩罚 因子 p=-0.05, 并 分 
别 对 和 矩 阵 的 第 x+1 列 与 第 m+1 行进 行 初始 化 ,初始 化 规 
则 分 别 为 : MoosD= px(m-it1) 和 Mtyp= pX(njt1)o 

其 次 ,基于 同义词 词 林 相似 度 计 算 函 数 SIM7, 对 
打分 矩阵 中 其 余 的 mxn 个 元 素 进行 递归 求解 。 本文 给 
出 记分 函数 /的 定义 ， 如 公式 (3) 所 示 。 


SAC AC) YACy 4 "AC er 
f(ACs, AC,)=)% f(AC;, -)=p=-0.05 jf ACj="—" 
(一 ， AC,)=p=-0.05 if AC,="—" 
(3) 


考虑 到 中 文 组 合 概 念 普 遍 存 在 “ 词 序 敏感 "的 特 
点 , 将 递归 的 起 点 选 定 为 两 个 组 合 概念 的 结尾 处 ， 即 : 
矩阵 中 的 Mi 元 素 。 对 _ SIM 的 描述 见 公式 (1)。 递 归 
规则 ( 即 : 空位 罚 分 函数 ) 如 公式 (4) 所 示 。 


Moon 十 f(AC,, AC,) 
My sm MM ey EP 2 
Mono +P 
最 后 ， 从 和 矩阵 中 的 Mi 元 素 开始 ,回溯 至 和 矩阵 中 


的 Wi 元 素 结束 ， 即 可 得 到 最 优 比 对 路 径 。 在 蕴含 最 
优 匹配 路 径 的 打分 矩阵 中 ,“ 加 粗 第 头 ” 表 示 得 到 的 最 
优 路 径 。 具 体 地 , 插入 空位 符 “-” 的 策略 为 :“ 加 粗 斜 箭 
头 ” 表 示 将 其 尾部 所 对 应 的 两 个 原子 概念 进行 配对 ; 
“加 粗 水 平 第 头 ” 表 示 对 词 串 序列 CC, 中 , 在 其 所 在 行 
对 应 的 原子 概念 位 置 前 插入 一 个 空位 符 “-”;“ 加 粗 垂 
直 箭 头 ?表示 对 词 串 序列 CC, 中, 在 其 所 在 列 对 应 的 原 
子 概念 相应 位 置 前 插入 一 个 空位 符 “-”。 这 里 需要 说 明 的 
是 , 如 果 得 到 的 最 优 比 对 路 径 不 止 一 条 , 则 任 选 其 一 。 

有 具体 的 基于 全 局 序列 比 对 思想 的 概念 元 素 级 相似 
度 计算 算法 , 见 算法 1。 

在 插入 空位 符 “-" 后 ,两 个 待 映射 组 合 概 念 词 条 序 
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列 的 长 度 相 等 , 称 为 CC; 和 CC 定义 两 组 序列 的 长 度 
为 工 。 最 终 根据 比 对 结果 ,基于 记分 函数 得 到 组 合 
概念 之 间 的 相似 度 计算 方法 如 公式 (5) 所 示 。 
以 f(4C,,4C,) 


si? 5 
2 


5 实验 数据 与 结果 分 析 


5.1 ”数据 来 源 

本 文采 用 中 文 网 络 开放 百科 知识 库 作为 实验 数据 
源 。 除 DBpedia( 中 文 版 ) 知 识 库 以 外 , 本 系统 基于 文献 
[5,31], 使 用 把 虫 工 具 包 HTMLParser 分 别 对 百度 百科 
和 互动 百科 的 开放 分 类 页 面 和 词 条 页 面 所 包含 的 
Infobox 结构 化 信息 进行 候 取 和 解析 ， 并 将 其 以 中 文 三 


SIM vw (CC. 


Si 


CC, ) 全 


天 | 
CN 


i i 
INAaA IV. 


果 作 为 本 体 映 射 实验 的 参考 正确 映射 对 ， 如 表 3 至 表 
5 所 示 。 
表 3 Baidu-Hudong 映射 任务 本 体 参考 映射 数 统计 


Baidu Hudon 参 > 
人 

人 物 120 1 497 57 

科学 157 2 323 62 

社会 102 3 937 60 

Baidu- 万 史 118 2 093 54 

Hudong 艺术 84 1 506 55 

自然 104 5 688 71 

体育 165 258 59 

也 理 133 3 632 97 


表 4 Hudong-DBpedia 映射 任务 本 体 参 考 映 射 数 统计 


可 Eo Hudong DBpedia 参考 
元 组 (Triple) 的 形式 组 织 起 来 ,形成 待 映 射 的 大 规模 中 。。 只 出 任务 顶层 分 类 概念 数量 。 ”概念 数量 ”映射 对 数 
文 开 放 域 知识 库 。 如 表 2 所 示 , 本 体 概念 体系 主要 由 人 物 1 497 4737 380 
百科 开放 分 类 体系 构成 。 en 
a 社会 3 937 10 676 303 
表 2 中 文 网 络 百科 知识 库 信 息 历史 2 093 5 648 524 
艺术 1 506 1 908 193 
、 Ea 、 DBpedia 3.8 
项 目 百度 百科 互动 百科 
和 (中 文 版 ) 表 5 Baidu-DBpedia 映射 任务 本 体 参 考 映 射 数 统计 
子 分 类 13 13 23 
本 体 概 念 ] Be Baidu DBpedia 参考 
二 中 文 三 元 组 数量 1 323 29 263 106 000 映 出任 务 项 层 分 类 概念 数量 概念 数量 映射 对 数 
Infobox 数量 214 732 257 215 204 822 人 物 120 4 737 26 
7 Infobox 中 的 谓词 数 。 21 152 1061 18206 1 社会 102 10 676 28 
中 文 三 元 组 数量 1698 149 2 161616 4077 898 DBpedia 历史 118 5 648 11 
,Infobox 出 现 频 率 2.30% 10.10% ”19.74% 艺术 0 25 
词 条 实例 地 理 133 37 936 95 


中 文 三 元 组 数量 9346 184 2545447 1037 557 


5.2 ”评测 指标 
本 文采 用 对 中 文 概念 等 价 关 系 识别 的 准确 率 
(Precision) 、 召 回 率 (Recall 和 综合 评价 指标 -measure) 
作为 最 终 的 评价 标准 。 其 中 : 
输出 的 正确 映射 对 数 
输出 的 映射 对 总 数 
输出 的 正确 映射 对 数 
标准 结果 中 的 映射 对 总 数 


2xPxR 00o% 
R) 


x100% 


Precision(P) = 


Recall(R) = x100% 


F-measure(F1) = 


笔者 邀请 首都 经 济 贸易 大 学 信息 学 院 的 4 位 本 科 
四 年 级 学 生 , 采用 人 工 识别 和 手工 标注 的 方式 对 
DBpedia、 百 度 百 科 和 互动 百科 顶层 分 类 树 中 客观 存在 
的 中 文 概念 等 价 关 系 进行 完整 的 获取 , 并 以 标注 的 结 
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5.3 ”序列 比 对 结果 分 析 

在 对 基于 序列 比 对 的 组 合 概念 相似 度 计算 方法 进 
行 阐述 后 ， 对 之 前 提 到 的 两 组 相似 度 计算 算 例 进行 重 
新 审视 。 

算 例 1 CC=[ 思 想 ， 史 ]， CCF=[ 历 史 ， 理论 ]。 由 公 
式 (2) 得 到 的 组 合 概 念 相似 度 值 为 Sim(CC,，CC)= 
(1.0+1.0)/2=1.0, 而 采用 基于 序列 比 对 算法 得 到 的 组 合 
概念 序列 对 齐 效 果 如 图 3 所 示 , 其 对 应 的 打分 矩阵 如 
4 所 示 。 最 终 得 到 的 组 合 概念 相似 度 值 应 为 SIMww 
(CC CCJ)-=(0.05+1.0-0.05)/3=0.3。 该 组 示例 映射 对 来 
自 Hudong-DBpedia 映射 任务 中 的 “历史 ” 子 任务 。 


思想 史  - 
| | | 

- ”历史 理论 

图 3 正确 比 对 结果 


历史 “理论 
思想 | |0.9| 一 0.95 0 
5 : -0.05 
中 、017 、-0.0 
-0.1 一 上 0.05| ~ 
图 4 算 例 1 的 打分 矩阵 


算 例 2: CC=[ 第 二 , 次 , 工业 革命 |，CC=[ 第 二 ， 
次 , 世界 大 战 , 战犯 ]。 若 采用 公式 (2) 计 算 组 合 概念 相 
似 度 ， 则 会 得 到 错误 的 相似 度 值 : Sim(CC;，CC)=1.0， 
这 是 因为 原子 概念 “次 ”存在 “一 词 多 义 ” 现 象 。 具 体 地 , 
词 元 “次 ”在 《同义词 词 林 》( 扩 展 版 ) 中 有 多 个 编码 项 ， 
其 中 Dn04B03=” 编 码 项 给 出 了 两 个 原子 词 元 “第 二 ”和 
“次 ”为 等 价 词 元 的 判定 。 因 此 , 根据 公式 (2) 会 得 到 4 
组 原子 概念 映射 结果 为 1.0 的 情况 , 分别 是 : < 第 二 , 次 
>=1.0, < 第 二 , 第 二 >=1.0，< 次 , 第 二 >=1.0， 以 及 < 次 ， 
次 >=1.0。 代 入 公式 (2) 有 : Sim(CC,, CC)=(1.0+1.0+1.0+ 
1.0)/4=1.0。 而 根据 基于 序列 比 对 的 算法 计算 最 终 得 到 
的 组 合 概 念 相似 度 值 应 为 SMyACC;，CC;)= 
(1.0+1.0+0.18-0.05)/4=0.5325。 通过 算法 1 得 到 的 包含 
最 优 匹 配 路 径 的 打分 矩阵 Mo) 如 图 5 所 示 ， 其 所 对 应 
的 最 优化 序列 匹配 结果 如 图 6 所 示 。 该 组 示例 映射 对 
来 自 Baidu-DBpedia 映射 任务 中 的 “历史 ” 子 任务 。 


第 二 次 战犯 
大 战 
第 二 [BIN143\ 038\ .0.08\ .0115 
次 |108NLHBIN04、\ ON 
05 


工业 革命 | 0.03、0.08 0.3N0.18 -0 
-0.2 一 -0.15 一 -0.1->-0.05 一 | ; 


图 5 算 例 2 的 打分 矩阵 


第 二 次 x 
第 二 次 世界 大 战 战犯 
图 6 算 例 2 的 序列 匹配 结果 
由 此 可 以 看 出 , 算 例 1 和 算 例 2 中 的 两 个 组 合 概 
念 之 间 并 无 等 价 关 系 。 而 传统 方法 却 分 别 给 出 相似 度 
均 为 1.0 表示 极 高 相似 度 的 错误 结论 .相反 地 , 由 算法 
1 所 得 到 的 相似 度 值 则 更 合理 。 考 虑 到 中 文 概念 普 ; 
存在 的 “ 词 序 敏感 "和 “一 词 多 义 ” 现 象 时 , 采用 基于 
Needleman-Wunsch 算法 的 全 局 比 对 算法 ， 可 以 有 效 规 
避 以 文献 [14] 为 代表 的 传统 方法 可 能 带 来 的 错误 映 


射 。 同 时 , 在 面 对 组 合 概念 ( 即 : 未 登录 词 ) 映 射 时 ,如 
果 其 所 对 应 的 词 串 序列 中 的 原子 概念 的 语义 顺序 基本 
相同 , 算法 1 的 效果 则 应 与 传统 方法 基本 一 致 。 综 上 
所 述 , 基于 全 局 序列 比 对 的 概念 元 素 级 相似 度 算法 在 
面 对 大 规模 中 文本 体 映 射 任务 时 ， 比 传统 方法 更 具 优 
势 和 合理 性 。 

5.4 大 规模 中 文本 体 映射 结果 分 析 

在 上 述 算法 思想 的 理论 指导 下 , 本 文 以 中 文 三 大 
网 络 百 科 知 识 库 为 数据 源 ,， 面向 大 规模 关联 数据 构建 
的 实际 应 用 场景 ， 对 所 提出 的 原型 系统 进行 性 能 评 
测 。 完 成 三 大 映射 任务 后 得 到 评测 结果 ,如 表 6 至 表 8 
所 示 , 分 别 给 出 了 采用 4 种 不 同 的 典型 相似 度 计算 算 
法 所 得 到 的 准确 率 、 召回 率 以 及 Fl 值 。 第 一 种 算法 为 
跨 语言 通用 的 编辑 距离 相似 度 算法 ,第 二 种 算法 为 
传统 的 基于 同义词 词 林 的 中 文 词语 相似 度 计算 算法 
19 第 三 种 算法 为 李 佳 等 提出 的 基于 HowNet 的 中 文 
词语 相似 度 算法 ELOMC0 7 第 4 种 算法 为 本 文 提出 
的 中 文 概念 综合 相似 度 计算 算法 。 

为 了 保证 公平 性 , 本文 将 判定 概念 等 价 关 系 的 相 
似 度 阔 值 统一 设 定 为 1= 0.9。 

表 6 为 Baidu-Hudong 本 体 映射 任务 的 概念 相似 度 
计算 结果 ,可 以 看 出 , 本 文系 统 的 准确 率 均 值 分 别 高 
出 传统 的 同义词 词 林 算法 和 ELOMC 算法 41% 和 39% 
左右 , 而 召回 率 则 高 出 编辑 距离 算法 和 传统 的 同义词 
词 林 算 法 平均 约 13% 和 2% 左 右 , 并 与 ELOMC 算法 基 
本 持平 。 在 综合 评价 指标 Fl 值 上 , 本 系统 分 别 高 出 编 
辑 距 离 算 法 、 传 统 的 同义词 词 林 算法 和 ELOMC 平均 
约 8%, 23% 和 20%。 

表 7 为 Hudong-DBpedia 本 体 映 射 任务 的 概念 相 
似 度 计算 结果 , 在 准确 率 方面 , 本 系统 分 别 高 出 编辑 
距离 算法 、 传 统 的 同义词 词 林 算 法 和 ELOMC 算法 平 
均 约 1%、10% 和 11% 左右 。 召回 率 则 高 出 编辑 距离 算 
法 和 传统 的 同义词 词 林 算 法 平均 约 6% 和 1% 左右 , 并 
与 ELOMC 算法 基本 持平 。 本 系统 的 综合 评价 指标 F1 
值 则 分 别 高 出 编辑 距离 算法 、 传 统 的 同义词 词 林 算 法 
和 ELOMC 算法 平均 约 3%, 6% 和 6%。 

表 8 为 Baidu-DBpedia 本 体 映 射 的 概念 相似 度 计 
算 结 果 , 在 处 理 该 组 任务 时 ， 本 系统 的 准确 率 均值 分 
别 高 出 传统 的 同义词 词 林 算法 和 ELOMC 算法 39% 和 
43% 左 右 。 召 回 率 则 高 出 编辑 距离 算法 、 传 统 的 同 义 
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表 6 Baidu-Hudong 映射 任务 评测 结果 
地 拷 任务 。 项 层 分 类 编辑 中 离 垂 法 i ELOMC 算法 ba 本 文系 统 
P R Fl P R Fl P R Fl P R Fl 
人 物 1.000 0.526 0.690 0.657 0.772 0.710 0.943 0.877 0.909 0.980 0.877 0.926 
科学 1.000 0.742 0.852 0.422 0.790 0.551 0.387 0.774 0.516 0.982 0.774 0.866 
社会 1.000 0.567 0.723 0.640 0.800 0.711 0.622 0.850 0.718 0.915 0.717 0.804 
历史 1.000 0.611 0.759 0.607 0.630 0.618 0.607 0.685 0.643 1.000 0.685 0.813 
Baidu-Hudong ”艺术 1.000 0.727 0.842 0.769 0.909 0.833 0.729 0.927 0.816 1.000 0.927 0.962 
自然 1.000 0.704 0.826 0.369 0.775 0.500 0.364 0.775 0.495 0.965 0.775 0.859 
体育 1.000 0.763 0.865 0.554 0.780 0.648 0.516 0.814 0.632 0.980 0.814 0.889 
地 理 1.000 0.691 0.817 0.470 0.804 0.593 0.491 0.845 0.621 0.988 0.835 0.905 
平均 值 1.000 0.666 0.797 0.561 0.782 0.645 0.582 0.818 0.669 0.976 0.800 0.878 
表 7 Hudong-DBpedia 映射 任务 评测 结果 
WE 天 人 类 编 加 中 高 算法 | ELOMC 算法 ba 本 文系 统 
P R Fl P R Fl P R Fl P R Fl 
人 物 0.973 0.861 0.913 0.955 0.889 0.921 0.949 0.924 0.936 0.956 0.924 0.940 
科学 0.939 0.939 0.939 0.838 0.939 0.886 0.886 0.939 0.912 1.000 0.939 0.969 
ee Te 0.964 0.894 0.928 0.793 0.983 0.878 0.794 0.993 0.883 0.990 0.993 0.992 
历史 0.987 0.987 0.987 0.992 0.989 0.990 0.979 0.992 0.986 0.994 0.992 0.993 
艺术 0.984 0.938 0.960 0.823 0.990 0.899 0.740 0.995 0.849 0.989 1.000 0.994 
平均 值 0.969 0.924 0.946 0.880 0.958 0.915 0.870 0.969 0.913 0.986 0.970 0.978 
表 8 Baidu-DBpedia 映射 任务 评测 结果 
统 的 基于 同义词 
和 企 务 。。 项 司 分 类 。。 入 加 下 元 算法 中 et ee ELOMC 算法 本 文系 统 
P R Fl P R Fl P R Fl P R Fl 
人 物 1.000 0.692 0.818 0.452 0.731 0.559 0.733 0.846 0.786 0.963 1.000 0.981 
社会 1.000 0.679 0.809 0.639 0.821 0.719 0.500 0.821 0.622 0.955 0.750 0.840 
Be 历史 1.000 0.727 0.842 0.692 0.818 0.750 0.188 0.818 0.305 0.900 0.818 0.857 
艺术 1.000 0.760 0.864 0.639 0.920 0.754 0.821 0.920 0.868 1.000 1.000 1.000 
地 理 1.000 0.853 0.920 0.421 0.979 0.589 0.413 1.000 0.585 0.989 0.989 0.989 
平均 值 1.000 0.742 0.851 0.569 0.854 0.674 0.531 0.881 0.633 0.961 0.912 0.934 


词 词 林 算法 和 ELOMC 算法 平均 约 17%、6% 和 3% 左 
右 。 在 综合 评价 指标 Fl 值 上 , 本 系统 分 别 高 出 编辑 距 
离 算法 、 传 统 的 同义词 词 林 算法 和 ELOMC 算法 平均 
约 8%, 26% 和 30%。 

而 在 Baidu-Hudong 和 Baidu-DBpedia 映 射 任务 中 ， 
本 系统 的 准确 率 低 于 编辑 距离 算法 , 这 是 因为 《 同 义 


族 >、< 刑 法 , 刑事 >、< 军 队 ， 军 事 >、< 辛 效 革 命 , 革 
命 > 等 。 这 种 情况 在 该 组 映射 的 “社会 子 映 射 任务 中 出 
现 的 次 数 较 多 , 但 是 在 其 他 映射 任务 中 则 较 少 出 现 有 
争议 的 同义词 对 。 

从 宏观 上 讲 ,本 文 模型 在 三 大 映射 任务 的 总 计 18 
组 子 映射 任务 上 获得 的 准确 率 、 召 回 率 和 综合 评价 指 


词 词 林 》( 扩 展 版 ) 中 客观 存在 一 些 有 争议 的 或 是 被 不 
当归 类 为 同义词 对 的 情况 。 如 果 它 们 出 现在 结果 集中 ， 
本 文 则 视 其 为 错误 的 映射 结果 , 例如 : < 民族 ,中 华 民 
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标的 平均 值 可 以 分 别 达 到 约 97.5%、87.8% 和 92.1%。 
虽然 本 文 模型 在 准确 率 上 略 低 于 编辑 距离 算法 , 但 这 
由 于 同义词 词 林 中 个 别 被 不 恰当 归 类 的 同义词 对 所 
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造成 的 ; 而 编辑 距离 算法 却 只 能 单纯 机 械 地 比较 概念 
间 的 字面 相似 度 , 这 种 完全 忽视 概念 之 间 的 语义 相似 
性 的 算法 必然 会 导致 其 在 所 有 映射 任务 中 的 召回 率 均 
明显 低 于 其 他 系统 。 而 本 文 方法 由 于 引入 语义 词典 一 一 
《同义词 词 林 》( 扩 展 版 ), 并 对 传统 的 基于 同义词 词 林 
算法 加 以 改进 ,因此 在 召回 率 上 会 明显 高 于 编辑 距 
离 算 法 。 这 也 就 使 得 在 最 终 综合 评价 指标 Fl 值 的 比 
较 上 , 本 文 方法 在 三 组 映射 任务 中 均 明 显 高 于 编辑 
离 算法 。 

综 上 所 述 , 本文 模 型 的 综合 评价 指标 为 同类 系统 
中 最 优 ; 其 准确 率 明显 高 于 传统 的 同义词 词 林 算法 和 
ELOMC 系统 ; 而 其 召回 率 则 高 于 编辑 距离 算法 和 传 
统 的 同义词 词 林 相 似 度 算法 , 并 与 ELOMC 系统 基本 


持平 。 


现 阶 段 缺 乏 成 熟 的 中 文大 规模 本 体 映射 系统 ， 本 
文 针 对 关联 数据 网 络 构建 过 程 中 的 本 体 模式 匹配 问 
题 ， 提 出 一 种 新 的 基于 同义词 词 林 和 全 局 序列 比 对 算 
法 相 融 合 的 中 文本 体 映 射 模型 。 该 系统 解决 了 大 规模 
本 体 映射 系统 的 可 用 性 问题 。 它 着 眼 于 现 有 中 文大 规 
模 本 体 的 “语序 敏感 ?和 “一 词 多 义 ” 特 征 ， 进行 组 合 概 
念 的 元 素 级 映射 。 i 
考虑 引入 实例 级 以 及 概念 定义 相似 度 的 映射 参数 ， 进 
一 步 提 高 中 文 映射 系统 的 健壮 性 和 准确 性 
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Linking Chinese Open Data at Schema-Level 


Wang Ting GaoYing Liu Jingwei 
(Information School, Capital University of Economics and Business, Beijing 100070, China) 


Abstract: [Objective] This study proposes a novel Chinese Ontology Mapping model based on TongYiCiCiLin 
(TYCCL) and Sequence Alignment to evaluate concept similarity of the Linked Chinese Open Data at Schema-Level. 
[Methods] Firstly, we modified the TYCCL-based algorithm to compute the Similarity among atomic Chinese concepts 
from the TYCCL. Secondly, we proposed a global sequence-alignment algorithm to evaluate the similarity among 
Chinese OOV. [Results] The proposed model was examined with the corpus from DBpedia (Chinese version), Baidu 
baike and Hudong knowledge base. The Precision, Recall and Fl-value of this model were 97.5%, 87.8% and 92.1%, 
respectively. [Limitations] The proposed model only measured the similarity among Chinese Ontology concepts at the 
element level, which did not evaluate the impacts of Ontology attributes and instance on the concept equivalence 
relationship. [Conclusions] The proposed model is better than existing ones. 

Keywords: Chinese Linked Open Data TongYiCiCiLin Sequence Alignment Ontology Mapping 
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NISO 发 布 ResourceSynec( 资 源 同步 ) 框 架 规范 的 更 新 版 本 


美国 国家 信息 标准 组 织 (NISO) 于 近日 宣布 正式 出 版 了 ResourceSync 框架 规范 的 更 新 版 本 (ANSI/ NISO Z39.99-2017)。 由 
美国 国家 标准 协会 (ANSD 批 准 , 该 1.1 版 本 改进 了 一 个 Web 标准 ,该 标准 详细 说 明了 服务 器 可 以 实现 的 各 种 功能 ， 以 允许 第 
三 方 系统 与 不 断 发 展 的 资源 保持 同步 。 这 种 同步 在 当前 的 环境 下 是 非常 重要 的 , 现 如 今 , 不 仅 是 内 容 的 元 数据 , 基于 Web 的 
内 容 也 在 不 断 变化 。 

ResourceSync 在 2014 年 首次 发 布 ANSI/ NISO Z39.99。 该 标准 也 称 为 ResourceSync“ 核 心 " 规 范 , 提供 了 一 系列 易于 服务 
器 实现 的 功能 ， 以 使 远程 系统 与 不 断 发 展 的 资源 保持 更 紧密 地 同步 。 它 还 描述 了 服务 器 应 如 何 声明 其 支持 的 设施 ,并 提供 大 
量 的 示例 和 用 例 来 指导 用 户 实施 。 最 近 的 修订 版 修正 了 资源 的 最 新 修改 日 期 与 资源 修改 的 通知 日 期 的 混 靖 等 相关 问题 。 

“Web 资源 和 Web 资源 集合 不 断 发 展 , 在 许多 情况 下 , 希望 利用 这 些 资 源 的 应 用 程序 需要 确信 他 们 使 用 的 数据 是 最 新 
的 。 ”ResourceSync 工作 组 联合 主席 Herbert Van de Sompel 说 :“ 我 们 对 ResourceSync 核心 规范 的 修订 加 强 了 一 个 标准 ,可 以 
满足 学 术 交 流 、 文 化 遗产 和 教育 等 领域 中 不 同系 统 之 间 的 资源 发 现 和 同步 需求 。ResourceSync 在 设计 上 非常 模块 化 , 基于 
HTTP 和 Sitemap 协议 ， 以 确保 在 许多 应 用 程序 中 能 够 轻松 实现 , 包括 但 不 限于 及 时 共享 来 自 不 同类 型 的 存储 库 的 数据 。 此 外 ， 
相关 的 可 选 规范 提供 了 对 ANSI/ NISO ResourceSync 核心 的 扩展 , 包括 支持 同步 信息 存档 和 基于 推送 的 变更 通知 等 规范 。” 

有 关 使 用 ANSI / NISO Z39.99-2017 标准 的 ResourceSync 规范 和 视频 教程 , 请 访问 NISO 网 站 http://www.niso.org/ 
workrooms/resourcesync/。 

(编译 自 : http://www.niso.org/news/pr/view?item key=96962d7722cc13ale20c40e2ca3c2ca8ca80359d) 
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